大家研学||冯志伟教授谈计算语言学
冯志伟谈计算语言学
把基于语言大数据的经验主义方法和基于语言规则的理性主义方法结合起来
计算语言学是近年日益受到重视的前沿交叉学科。教育部语言文字应用研究所研究员冯志伟主要研究计算语言学、语言学流派、语料库语言学、术语学,他是我国最早从事计算语言学的学者之一,从20世纪50年代末在北京大学求学期间踏上计算语言学的学术道路,为我国计算语言学的发展作出了突出贡献。作为中国计算语言学的主要开创者和发展见证者之一,已届望九之年的冯志伟研究员仍治学不辍,为学科发展持续贡献力量。在他看来,要让下一代学者做好创新的准备,把基于语言大数据的经验主义方法和基于语言规则的理性主义方法巧妙地结合起来,从而把计算语言学的研究推向深入。
中国社会科学网:您是我国最早从事计算语言学的学者之一,请您介绍下什么是计算语言学,其跨学科特点主要体现在哪些方面?
冯志伟:计算语言学(computational linguistics)是用计算机研究和处理自然语言的一门新兴的交叉学科。由于计算语言学的研究对象是自然语言,因此,语言学家把它算为语言学的一个分支;由于计算语言学采用先进的计算机科学技术来研究和处理自然语言,因此,计算机科学家把它算为计算机科学的一个分支;由于计算语言学要研究自然语言的形式结构和自然语言处理的算法,因此,数学家把它算为应用数学的一个分支。这种情况说明,计算语言学不是一门单纯的学科,而是一门交叉学科,具有明显的跨学科特点。
为什么计算语言学会出现这样的跨学科特点呢?这是由计算语言学的研究目标决定的。计算语言学的目标既然是研究和处理自然语言,那么,它必定要认真地研究计算机处理自然语言的整个过程,提出行之有效的理论和方法。
一般地说,计算机对自然语言的研究和处理应当经过如下四个方面的过程:
第一,把需要研究的问题在语言学上加以形式化,建立语言的形式化模型,使之能以一定的数学形式,严密而规整地表示出来,这个过程可以叫做“形式化”。
第二,把这种严密而规整的数学形式表示为算法,这个过程可以叫做“算法化”。
第三,根据算法编写计算机程序,使之在计算机上加以实现,建立各种实用的自然语言处理系统,这个过程可以叫做“程序化”。
第四,对于所建立的自然语言处理系统进行评测,使之不断地改进质量和性能,以满足用户的要求,这个过程可以叫做“实用化”。
因此,为了从事计算语言学的研究,研究人员不仅要具备语言学知识,而且还要具备数学和计算机科学方面的知识,这样,计算语言学就成为了介乎于语言学、数学和计算机科学之间的边缘性的交叉学科,它同时涉及到文科、理科和工科三大领域,使得它具有跨学科的性质。
中国社会科学网:请简要介绍下计算语言学的发展历程。您从50年代末就开始接触计算语言学,60多年过去了,现在回顾审视计算语言学的历史与现状您有哪些感受和认识?
冯志伟:1946年制造出第一台电子计算机,3年之后,美国洛克菲勒基金会自然科学部主任韦弗(Weaver)于1949年7月15日发表了关于《翻译》的备忘录,提出用计算机来进行机器翻译的思想,至今已经有71年了。
不过,计算语言学(computational linguistics)这个术语是1962年才出现的。早期的计算语言学研究主要是基于规则的,也就是根据语言学规则来编写程序,带有理性主义的色彩,用这种方法研制出来的系统难以应用于大规模的真实文本的自然语言处理。20世纪80年代后期计算语言学开始战略转移,采用经验主义的方法,从大规模的真实的语料库中获取语言知识,提高了自然语言处理的效果,进入21世纪之后,计算语言学使用神经网络的方法,不再用手工获取自然语言的特征,而是通过深度学习,让计算机自动地从语料库中获取自然语言的特征,自然语言处理的效果进一步提高。
我是1957年考入北京大学地球化学专业的,入学之后在北大图书馆看到了一篇使用数学方法研究自然语言的文章,产生了浓厚的兴趣,于是毅然从理科转到中文系学习语言学,后来又考上了研究生,走上了计算语言学研究的道路。我研究计算语言学已经63年的时间了。
我们这一代人正在一天天地变老;然而,我们如痴如醉地钟爱着的计算语言学事业却是一个新兴的学科,她还非常年轻,充满了青春的活力,尽管她还不够成熟,但是她无疑地有着光辉的发展前景。我们个人的生命是有限的,而科学知识的探讨和研究却是无限的。我们个人渺小的生命与科学事业这棵常青的参天大树相比较,有如沧海之一粟。我们应当加倍努力,在计算语言学的研究中实现自己渺小生命的价值。
中国社会科学网:计算语言学是否契合当前推进的“新文科”建设。
冯志伟:所谓“新文科”,是指在传统文科的基础之上进行的学科中不同专业的重组,形成文理交叉,把现代信息技术引入到文科的课程中,为学生提供跨学科学习,培养创新性的思维。计算语言学很自然地把语言学、数学和计算机科学结合在一起,是最为典型的“新文科”,而且早就存在了。在一定程度上讲,加强计算语言学研究也就是加强了新文科的建设。
中国社会科学网:计算语言学的研究成果主要有哪些应用?
冯志伟:计算语言学的研究成果可以用于机器翻译、信息自动检索、信息抽取、自动文摘、自动阅读理解、文本数据挖掘、智能问答、人机接口、计算机辅助语言教学、用户偏好分析等领域,有很大的实用价值。所以,我们可以说:“大哉计算语言学之为用!”
中国社会科学网:您近期在做哪些相关研究工作?
冯志伟:我过去主要从事机器翻译系统的研制,1978-1981年在法国格勒诺布尔大学应用数学研究所(法文Institut de Mathematique Appliquée de Grenoble,简称IMAG)研制过汉语翻译为法语、英语、日语、俄语、德语5种语言的机器翻译系统,把20多篇汉语的短文自动地翻译成5种外语,这是世界上第一个把汉语自动地翻译成多种外语的机器翻译系统。此后我又分别研制了若干个外语翻译成汉语的机器翻译系统和中文术语数据库,做了一些应用系统的开发研究。现在我已经进入望九之年,不再做应用系统的开发了。
近年来我的主要精力用于总结计算语言学的理论和方法,写作专著和教材。我在2017年出版了《自然语言形式分析的理论与方法》一书,是113万多字的大部头专著。我还编写计算语言学教材,出版了《自然语言处理简明教程》,是87万字的大部头教材。
此外,我还把国外优秀的计算语言学著作翻译成中文,翻译过《自然语言处理综论》《统计语言学习》等专著。
我已经出版专著38部,发表论文400多篇,著书立说成为我主要的工作内容。有朋友说我是“著作等身”了!
中国社会科学网:可否举例介绍一些当前国际上计算语言学的前沿研究。
冯志伟:当前国际上计算语言学研究在机器翻译方面取得了很大的成就,机器翻译经历了基于规则的机器翻译、统计机器翻译、神经机器翻译等阶段,现在正在实用化和商品化,机器翻译已经从学者的梦想变成了活生生的现实。
计算语言学还可以分析用户的偏好,促进商品的销售。文本分析公司根据用户在互联网论坛和用户群体组织中表现出来的意见、偏好、态度的自动测试结果,对用户提供智能化、个性化的服务,帮助用户在市场上挑选到符合他们要求的商品。
计算语言学的另一个前沿研究是文本的自动阅读理解。在电影《她(HER)》中有这样一幕:主人公是一位信件撰写人,叫做萨曼莎的计算机自动阅读理解系统在得到主人公的允许后阅读他的电子邮件资料,总结出需要保留和删除的电子邮件,帮助他修改信件草稿中的错字,并且与他探讨信件的片段。萨曼莎通过阅读主人公的海量信息来了解信件撰写人,也通过阅读互联网上的海量数据来了解世界。
这些计算语言学前沿研究的问题都很有趣,可以造福人类。
中国社会科学网:在您看来我国计算语言学学科发展目前主要存在哪些问题?
冯志伟:计算语言学越来越重要,很多语言学家也想参与到计算语言学的研究中来。但是,由于他们大多数是文科背景,不太懂数学和计算机科学,一旦他们参与计算语言学研究,往往感到力不从心。这种情况,也引起理工科背景的计算语言学家的不满,他们感到很失望。这是我国计算语言学存在的一个主要问题。
著名语音识别专家、美国工程院院士贾里尼克(F.Jelinek)于1988年12月7日在自然语言处理评测讨论会上的发言中曾经说过这样的话:“每当一个语言学家离开我们的研究组,语音识别率就提高一个台阶。”根据一些参加这次会议的人回忆,当时贾里尼克的原话更为尖刻,他说:“每当我解雇一个语言学家,语音识别系统的性能就会得到一些改善。”贾里尼克的这些话在我国语言学界广为传播,使得很多语言学家感到很茫然,觉得尽管信息时代对语言学的发展寄予厚望,但是自己在信息时代没有什么用处,有些灰溜溜的感觉。
贾里尼克的这段名言说明,在信息网络时代,如果语言学家不更新知识,仍然恪守于自己原来的知识领域故步自封,将有被时代抛弃的危险。
面对信息网络时代的新要求,不少语言学家努力学习计算机自然语言处理的技术,不断进行更新知识的再学习,成为兼通语言学、数学和计算机科学的新一代语言学家。
语言学家更新知识之后,贾里尼克也改变了对于语言学家的成见。他在2004年发表了一次演讲,演讲的题目是“我的一些最好的朋友是语言学家”,他在演讲的最后说:“物理学家研究物理现象,语言学家研究语言现象。工程师要学会利用物理学家的真知灼见,而我们则要学会利用语言学家的真知灼见。”可见贾里尼克在16年前奚落的并不是所有的语言学家,而是那些故步自封并且不愿意更新知识的语言学家。
由此看来,为了从事计算语言学的研究,语言学家很有必要更新知识,很有必要学习数学和计算机科学的知识。我觉得,这是语言学家从事计算语言学研究的最主要的问题。我希望对于计算语言学感兴趣的语言学家应当与时俱进,进行更新知识的再学习,使自己适应计算语言学研究的要求。
中国社会科学网:您认为今后一个时期学界应从哪些方面进一步推进计算语言学研究?
冯志伟:目前,在计算语言学研究中,深度学习(神经网络)方法成为了主流的方法,几乎在计算语言学研究的所有领域都采用了深度学习(神经网络)的方法,这是一种基于语言大数据的经验主义方法,语言规则受到忽视。不过,我认为,深度学习(神经网络)应当与语言学研究结合起来,基于语言大数据的经验主义方法应当与基于语言规则的理性主义方法结合起来,相互促进,相得益彰,这样才能推动计算语言学的进一步发展。
我们这一代学者赶上了基于语言大数据的经验主义盛行的黄金时代,我们应当告诫下一代的学者,不要过分地迷信目前广为流行的基于语言大数据的经验主义方法,不要轻易地忽视目前受到冷落的基于语言规则的理性主义方法,要做好创新的准备,把基于语言大数据的经验主义方法和基于语言规则的理性主义方法巧妙地结合起来,从而把计算语言学的研究推向深入。
图灵奖获得者辛顿(Hinton)认为,“深度学习的下一个大的进展应当是让神经网络真正理解文档的内容”,他明确地指出了自然语言理解是深度学习(神经网络)的发展方向,他的看法是语重心长的,值得我们深思。
延伸阅读
语言科学教师群
邀您入同学群
欢迎留言并分享至朋友圈